Contiene un database delle citazioni degli articoli pubblicati su arxiv a proposito di fisica delle alte energie.
Sono presenti due tabelle:
Passi dell'esercitazione:
domande possibili da rispondere:
Per i più audaci: esiste la rete di citazioni dei paper teorici
che contiene anche i metadati sugli articoli, inclusi i nomi degli autori.
Provate a fare il parsing del file degli autori ed estrarre il numero di autori per paper, correlandolo con il successo del paper in questione!
http://snap.stanford.edu/data/cit-HepPh.txt.gz
http://snap.stanford.edu/data/cit-HepTh.txt.gz
http://snap.stanford.edu/data/cit-HepTh-dates.txt.gz
vediamo scaricare ed estrarre i file con python3, usando solo le librerie di base
from urllib.request import urlretrieve
url = "http://snap.stanford.edu/data/"
filename = "cit-HepPh.txt.gz"
local_filename, headers = urlretrieve(url+filename, filename)
import gzip
with gzip.open('cit-HepPh.txt.gz', 'rb') as source:
with open('cit-HepPh_python.txt', 'wb') as destination:
destination.write(source.read())
in generale posso estrarre gli archivi in modo più facile, ma per qualche motivo a me oscuro il formato ".gz" puro non sembra essere supportato direttamente.
from shutil import unpack_archive
unpack_archive(filename)
dalla linea di comando posso usare i comandi wget ed gunzip
!wget http://snap.stanford.edu/data/cit-HepPh.txt.gz
--2017-03-17 09:48:12-- http://snap.stanford.edu/data/cit-HepPh.txt.gz Resolving snap.stanford.edu (snap.stanford.edu)... 171.64.75.80 Connecting to snap.stanford.edu (snap.stanford.edu)|171.64.75.80|:80... connected. HTTP request sent, awaiting response... 200 OK Length: 1664504 (1.6M) [application/x-gzip] Saving to: ‘cit-HepPh.txt.gz’ cit-HepPh.txt.gz 100%[=====================>] 1.59M 555KB/s in 2.9s 2017-03-17 09:48:25 (555 KB/s) - ‘cit-HepPh.txt.gz’ saved [1664504/1664504]
!gunzip -k cit-HepPh.txt.gz
!md5sum cit-HepPh.txt
!md5sum cit-HepPh_python.txt
e79f6ef17a4b0a2e94959af6fa88de72 cit-HepPh.txt e79f6ef17a4b0a2e94959af6fa88de72 cit-HepPh_python.txt
Per chi volesse scaricare il file degli abstract, non essendo in formato gz, è necessario usare il comando tar
invece di gunzip
.
!wget http://snap.stanford.edu/data/cit-HepTh-abstracts.tar.gz
# questo comando creerà diverse cartelle con dentro i singoli file degli abstract
!tar -xzf cit-HepTh-abstracts.tar.gz